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基于 改进 贝 叶 斯 优化 算法 的 CNN 超 参 数 优化 方法 
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摘 要 : CNN 框架 中 ， 如 何 对 其 模型 的 超 参 数 进行 自动 化 获取 一 直 是 一 个 重要 问题 。 提 出 一 种 基于 改进 的 贝 叶 斯 优化 
算法 的 CNN 超 参 数 优化 方法 。 该 方法 使 用 改进 的 汤普森 采样 方法 作为 采集 函数 ， 利 用 改进 的 马尔 可 夫 链 蒙特 卡 洛 算 
法 加 速 训 练 高 斯 代理 模型 。 该 方法 可 以 在 超 参数 空间 不 同 的 CNN 框架 下 进行 超 参 数 优化 。 利 用 CIFAR-10、MRBI 和 
SVHN 测试 集 对 算法 进行 性 能 测试 ， 实 验 结果 表明 ， 改 进 后 的 CNN 超 参 数 优化 算法 比 同 类 超 参数 优化 算法 具有 更 好 
的 性 能 。 
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Hyper-parameter optimization of CNN based on improved Bayesian optimization algorithm 
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& Systems, Beijing University of Technology, Beijing 100124, China) 


Abstract: In the framework of convolutional neural network (CNN) , how to obtain the hyper-parameters of its model 


automatically is an important and pressing research topic. In this paper, we proposed a hyper-parameter optimization method of 


CNN based on improved Bayesian optimization algorithm. This method uses the improved Thompson sampling method as the 
acquisition function. The improved Markov Chain Monte Carlo algorithm is used to accelerate the Gaussian surrogate model. 
The proposed method can be used to optimize hyper-parameters in frameworks of CNN with different hyper-parameter space. 
The performance of the algorithm was tested by using these testing sets: CIFAR-10, MRBI and SVHN. The experimental results 


show that the improved hyper-parameter optimization algorithm of CNN has better performance than the other algorithms. 
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组 合 。 由 于 CNN 算法 计算 成 本 高 ， 在 传统 的 平台 上 可 能 需要 
数 天 时 间 来 进行 训练 ， 所 以 重复 的 反复 实验 既是 低 效 的 ， 也 不 
于 任何 一 个 CNN 模型 都 无 法 对 所 有 数据 集 进 行 最 佳 泛 是 彻底 的 。 
化 ， 因 此 在 将 CNN 应 用 于 新 数据 集 之 前 ， 必 须 先 选 择 一 组 适 针对 这 种 未 知 黑 盒 函 数 的 优化 ， 贝 叶 斯 优化 所 提供 了 一 个 
当 的 超 参数 。CNN 的 超 参数 包括 层 数 ， 每 层 隐藏 单元 的 数量 ， 有 效 的 方法 ， 并 且 已 经 被 证 明 在 许多 具有 挑战 性 的 优化 基准 函 
层 的 激活 函数 ， 层 的 内 核 大 小 ， 网 络 内 这 些 层 的 配置 等 。 为 新 数 上 优 于 其 他 的 最 先进 的 全 局 优化 算法 。 对 于 连续 函数 ， 通 常 
数据 集 选 择 新 的 模型 可 能 是 一 个 耗 时 且 繁 琐 的 任务 。 被 调整 的 假定 未 知 函 数 是 从 高 斯 过 程 (GP) 采样 的 ， 并 且 在 观察 时 保持 
超 参 数 的 数量 以 及 每 个 新 的 超 参 数 集合 的 评估 时 间 使 得 它们 在 该 函数 的 后 验 分 布 。 为 了 选择 下 一 个 实验 的 超 参 数 ， 可 以 优化 
CNN 模型 中 的 优化 尤其 困难 。 超 参数 对 不 同 CNN 架构 的 影响 当前 最 好 的 结果 或 者 高 斯 过 程 置信 区 间 (UCB ) 的 期 望 增 量 (EI) 
的 研究 已 经 显示 出 复杂 的 关系 ， 其 中 在 简单 CNN 网 络 中 提供 B41,Bergstra 等 人 器 提 出 的 TPE(CTree-structured Parzen Estimator 
巨大 性 能 改进 的 超 参 数 在 更 复杂 的 体系 结构 中 并 不 具有 相同 的 Approach ) 算法 和 Snoek 等 人 中 提出 的 GP EI MCMC 算法 已 经 
效果 叫 。 这 些 研究 还 表明 ， 一 个 数据 集 上 的 结果 可 能 不 会 转移 证 明 EI 和 UCB 在 许多 黑 盒 函数 的 全 局 最 优化 的 函数 评估 中 是 
到 具有 不 同 图 像 属 性 、 先 验 概率 分 布 、 类 别 数量 或 训练 示例 数 有 效 的。 然而 CNN 超 参数 优化 具有 与 其 他 黑 盒 优化 问题 相 区 
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量 的 男 一 个 数据 集 。 由 于 没有 明确 的 公式 来 选择 一 组 正确 的 超 。” 别 的 特征 。 首 先 每 一 次 对 CNN 超 参 数 的 评估 可 能 需要 一 个 可 
参数 ， 所 以 它们 的 选择 通常 取决 于 先前 的 经 验 和 实验 性 错误 的 
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的 时 间 量 ， 不 清楚 BI 和 UCB 是 否 ; 


en 


于 CNN 的 超 参 数 优 
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化 的 函数 评估 ; 并且 不 确定 这 些 优化 算法 得 到 的 超 参 数 对 于 县 
有 不 同 数据 模式 或 结构 的 域 的 CNN 框架 是 否 最 优 。 

本 文 基于 CNN 框架 和 已 有 贝 叶 斯 优化 算法 ， 提 出 一 种 改 
进 的 贝 叶 斯 优化 算法 对 CNN 超 参 数 进行 优化 。 该 方法 利用 高 
斯 过 程 对 超 参 数 进行 建 模 ， 利 用 改进 的 马尔 可 夫 链 蒙特 卡 洛 
(improved Markov Chain Monte Carlo, IMCMC) 算法 加 速 训 练 
高 斯 过 程 模型 的 训练 ， 即 计算 高 斯 代理 模型 的 超 参数 (长度 尺 
度 和 协 方差 振幅 等 ;。 并 使 用 改进 的 汤普森 采样 (improved 
thompson sampling,ITS ) 方法 作为 采集 函数 获得 下 一 个 采样 点 


2 ”改进 的 贝 叶 斯 优化 算法 
2.1 高 斯 过 程 

对 于 建 模 损失 函数 ， 高 斯 过 程 (GP) 
且 强 大 的 模型 优化 算法 。 在 这 里 将 采用 


直 被 认为 是 一 种 方便 
j 太 :A- 及 的 形式 。GP 1 


下 列 性 质 定义 : 任意 有 限 的 N 个 点 { 和 esAj> | 在 RN 上 引起 多 


变量 高 斯 分 布 。 这 些 点 中 的 第 n 个 被 认为 是 函数 值 A( 加) ， 高 


出 


计算 loss 值 ， 然 后 合并 到 历史 观测 集中 。 这 个 过 程 迭 代 直 至 
获得 一 组 性 能 良好 的 超 参数 。 该 方法 可 以 在 超 参数 空间 不 同 的 
CNN 框架 下 进行 超 参数 优化 。 利 用 CIFAR-10、MRBI 和 SVHN 
测试 集 对 算法 进行 性 能 测试 ， 说 明了 本 文 提出 的 方法 获得 的 超 
参数 比 TPE 和 GP EI MCMC 等 同类 的 优化 算法 得 到 的 超 参 数 
性 能 更 好 ， 更 稳定 。 


1 ” 贝 叶 斯 优化 算法 介绍 


对 于 超 参 数 的 优化 ， 可 以 将 这 种 优化 看 做 是 反映 泛 化 性 能 
的 未 知 黑 盒 函数 的 优化 ， 并 调用 针对 这 些 问题 开发 的 算法 。 这 
些 优化 问题 与 作为 训练 过 程 一 部 分 经 常 遇 到 低层 次 目标 是 不 同 
的 : 这 里 函数 评估 《 求 值 目标 函数 调用 一 次 ) 代价 很 大 ， 因 为 
它们 涉及 到 主要 的 机 器 学 习 算法 的 完成 。 在 这 种 函数 求 值 代价 
大 的 情况 下 ， 和 希望 花费 计算 时 间 来 更 好 的 选择 在 哪里 寻找 最 佳 
参数 。 在 贝 叶 斯 优化 中 ， 感 兴趣 的 是 在 一 些 有 界 集合 人 上 找到 
函数 f (4) 的 最 小 值 ， 本 文 将 把 它 作为 R 的 一 个 子 集 。 使 得 贝 叶 
斯 优化 不 同 于 其 他 程序 的 是 它 为 7 (0) 构造 一 个 概率 模型 ,然后 
I 用 这 个 模型 来 决定 下 在 哪里 去 评估 函数 ,同时 整合 不 确定 性 。 
基本 的 思路 是 使 用 /7(4) 以 前 评估 中 可 用 的 所 有 信息 来 学 习 

标 函 数 的 形态 ， 而 不 是 简单 地 依靠 局 部 梯度 和 Hessian 近似 。 
这 可 以 实现 通过 较 少 的 评估 就 可 以 找到 复杂 非 凸 函数 的 最 小 值 ， 
代价 是 执行 更 多 的 计算 以 确定 下 一 个 采样 点 。 因 此 分 为 了 两 个 
步骤 : a) 选择 一 个 先 验 函数 来 表达 关于 被 优化 函数 的 假设 ,本 
文 使 用 的 高 斯 过 程 ， 因 为 其 具有 灵活 易 处 理 的 特性 ; b) 选择 一 
个 采集 函数 ， 用 来 从 后 验 模型 构造 一 个 效用 函数 ， 来 确定 下 一 


de 


-一 


Sy 


将 要 优化 的 CNN 的 超 参数 看 做 是 多 维 空间 的 点 。 超 参数 
的 贝 叶 斯 优化 通过 在 超 参数 Xe 人 的 空间 中 对 损失 函数 /(4) 进 
行 一 个 高 斯 先 验 建 模 来 执行 。 通 过 验证 集 Xvy 可 以 观察 到 这 种 


损失 函数 的 一 些 噪声 ， /4) 表示 为 
1 
ZL(a,Xy)= 天 一 Tma (xi),yi) 1 
际 (xjJsXv . ) 
f (2)=L(ma, Xv)+e O) 


其 中 : m4 是 通过 在 给 定 训练 数据 集 Xr 上 运行 具有 超 参 数 4 的 
卷 积 神经 网 络 A 而 获得 的 模型 参数 ，/!(,y) 是 目标 损失 函数 。 
真实 的 了 (0) 是 未 知 的, 只 能 通过 在 验证 数据 集 上 计算 观测 噪声 


斯 分 布 的 良好 的 边缘 化 特征 使 本 文 能 够 以 闭合 的 形式 计算 边界 
和 条 件 。 所 得 到 的 函数 分 布 的 性 质 完 全 由 均值 函数 4: 人 一 尽 ， 


pi)= 相 AD 和 协 方差 函数 ( 核 函 数 ) t:AxA-> 取 ， 


ta.2)= 直 (AGO-ACD)(7(2)-A(9| 决定 中。 假设 在 输入 集 


6G={.… 加 和 观测 集 的 输出 y=[Z( 扩 ,Xv】， 上 调节 GP(464)， 


其 中 y=f( 加 )+s 带 有 一 个 独立 同 分布 的 高 斯 噪声 


e~NN [0.2] 。 测试 点 二 处 的 预测 分 布 表示 为 
-A (K+od) ， G) 
v[A] -kz)- 避 [KE+o2 ks (4) 


其 中 : 


训 =[k( 入 如),…k(aw,)] ， 天 是 一 个 半 正 定 和 矩阵 


在 每 一 次 实验 t 中 , GP 以 全 部 的 历史 观 


[e420) cialGxo) 


测 点 值 对 集合 X= (加工 ( 瓜 ,Xv 有 为 条 件 评 信 /() 。 然后 在 
利用 平衡 开发 和 勘探 的 采集 函数 的 基础 上， 使 用 预测 的 后 验 均 


值 和 方差 来 选择 下 一 组 超 参数 。 因 为 GP 需要 计算 协 方差 矩阵 
的 逆 ， 因 此 它 的 计算 复杂 度 为 O(n3)。 
2.2 对 GP 模型 训练 的 优化 

初始 化 GP 时 ， 采 用 一 个 零 均 值 函 数 和 一 个 Matérn 5/2 协 
方差 函数 人 门 。Matérn 5/2 kernel 表示 为 


KM (4,4)=0% [ 汪 sr20%, 人) 二 3 r2(4, Dew f [sr204,2) | (5) 


D 
其 中 性 (01)= 》b(1 -为 ) ， 94 为 长 度 尺度 ，90 为 协 方差 
d=1 


振幅 。 与 通常 使 用 的 平方 指数 内 核 相 比 ， 这 个 协 方差 函数 产生 
二 阶 可 微 的 样本 函数 ， 放 宽 了 对 后 验 概率 密度 函数 平滑 度 的 假 
设 。 本 文 介绍 两 种 常用 的 训练 GP 超 参数 的 方法 ， 分 别 是 最 大 
化 似 然 方 法 (maximumlikelihood，ML) 和 MCMC 方法 ， 并 对 其 
中 的 MCMC 方法 进行 优化 。 
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2.2.1 Maximum Likelihood 方法 

一 旦 获得 一 个 新 点 ， 在 这 一 点 上 评估 确切 的 后 验 概率 密度 
函数 并 更 新 GP。 在 GP 每 次 更 新 之 后 ， 通 过 最 大 化 边际 似 然 
(marginal likelihood) 来 优化 超 参数 (长 度 尺度 04 和 协 方差 振幅 
00 )。log marginal likelihood 可 以 写成 如 下 形式 : 


一 | 
L= log p(y|4, 0)-—= 7 (K+o27) ylo8|K + 87 


一 5 log2x (0) 


训练 目标 为 最 大 化 针对 训练 样本 的 对 数 边际 似 然 值 ， 得 到 
对 应 的 超 参 数 。 并 对 超 参数 进行 完全 贝 叶 斯 处 理 ( 仅 由 8 总 结 )， 
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掉 被 精确 概率 密度 函数 拒绝 的 高 概率 的 候选 点 来 修改 提议 分 布 。 
只 有 被 GP surrogate 接受 的 候选 点 才 会 被 接受 评估 , 其 概率 为 : 


p(9ly)p" (0 1») 
p(0, ly)p" (9|y) 


通过 这 种 方式 提高 了 接受 率 ， 和 避免 了 以 高 概率 被 拒绝 的 提 
议 ， 从 而 避免 了 不 必要 的 模型 拟 合 过 程 ， 其 计算 复杂 度 为 
Oa2+OG)。 这 是 在 不 牺牲 采样 精度 的 情况 下 实现 的 , 因为 最 终 
的 马尔 可 夫 链 是 通过 精确 的 后 验 概 率 密 度 函 数 生 成 的 。 由 于 篇 


apm， (11) 


且 求 解 边际 似 然 函 数 的 时 候 加 入 了 nuggettermll, 协 方差 K 应 


幅 有 限 ， 参 考 文献 9 用 近似 的 方法 详细 讨论 马尔 可 夫 链 的 遍历 


该 蔡 换 为 


R=) 0) 
其 中 : nuggetterm 可 以 有 效 避 人 免 奇 异 解 问题 ， 使 相关 和 矩阵 的 条 


件数 量 适中 ， 让 最 大 似 然 估计 更 可 靠 。 
2.2.2 改进 的 MCMC 方法 

使 用 贝 叶 斯 定理 ， 可 以 得 到 模型 参数 B 的 非 标准 化 后 验 概 
率 密度 : 


其 计算 复杂 度 为 O(n3)。 


p(Gly) «p(y|0)p(0) (8) 


其 中 p(9) 表示 GP 模型 参数 的 先 验 分 布 。 
Metropolis Hasting (MH) 通常 用 于 从 平稳 分 布 生成 样本 的 
马尔 可 夫 链 四。 假设 马尔 可 夫 链 中 的 第 n 个 样本 为 0， 则 其 原 


生 形 式 的 MH 首先 从 提议 分 布 (proposal distribution) d(g| 司 | 中 


提取 一 个 随机 候选 并 接受 候选 ， 


= min q(0%l0)p(0,») 
p(n,0) 1 . 


其 接受 概率 为 : 


这 意味 着 在 每 个 建议 的 样本 上 都 必须 对 代价 高 的 后 验 概 率 
密度 函数 式 (8) 上 进行 探测 - 即 要 运行 的 仿真 模型 。 因 为 获得 像 


后 验 概率 密度 函数 这 么 精确 的 提议 a(9|6, ) 是 非常 困难 的 , 所 以 


计算 量 。 
为 了 提高 


常 很 低 ， 这 导致 了 “拒绝 不 想 要 的 提议 点 "花费 了 大 多 


Ll 


MH 的 接受 率 ,本 文 使 用 评估 更 快 的 GP 代理 来 修 


改 常用 的 提议 分 布 ， 例 如 以 9 为 中 心 ， 协 方差 为 2, =o27 的 高 


斯 分 布 。 候 选 样本 9 是 从 建议 分 布 中 抽取 的 。 不 使 用 公式 (9) 
直接 测试 这 个 候选 点 的 接受 程度 ， 而 是 用 概率 P4 来 测试 这 个 


候选 点 对 GP 代理 


广 (9,y) 的 接受 程度 : 


(10) 


a 


0n,0)= min| 1， 
pa( n ) mn gq(9l6n)p* (0nly) 


与 式 (9) 相 比 ， 降 低 了 很 多 计算 成 本 。 直 观 地 说 ， 通 过 过 滤 


性 、 收 全 性 和 计算 复杂 度 。 
妹 为 采用 Maximum likelihood 方法 计算 GP 超 参数 的 时 候 ， 
需要 进行 求 导 等 大 量 运 算 并 且 还 可 能 在 求解 过 程 中 陷入 局 部 极 
值 ， 因此 本 文采 用 改进 的 MCMC 方法 , 该 方法 不 仅 使 GP 模型 
训练 更 快 ， 而 且 We 局 部 最 优 解 。 两 
种 方法 的 性 能 比较 在 下 文 实验 部 分 给 出 。 
2.3 采集 函数 

在 基于 模型 的 优化 过 程 中 ， 
函数 用 于 取样 下 一 个 点 来 评估 。 


在 每 一 次 迭代 t 中， 一作 采样 
这 个 采集 函数 使 用 观察 模型 函 


数 /(4), 并 给 每 一 组 超 参数 一 个 量化 值 <( 4/ (让 来 平衡 对 新 采 


样 点 的 开发 与 勘探 ， 以 最 大 限度 地 找到 全 局 最 优 解 。 而 且 本 文 


的 观测 结果 是 {,ya} 1 ,其 中 ~N(f( 加 ),r) 和 v 是 引入 函数 


观测 的 噪声 方差 。 用 a:A -Rt 表示 的 采集 函数 通过 代理 优化 来 


确定 下 一 步 应 评估 可 中 的 哪个 点 ev =argmaxaa( 害 了 ()) ， 其 中 


提出 了 几 个 不 同 的 函数 。 一 般 来 说 ， 这 些 采 集 功能 取决 于 先前 


的 观察 结果 以 及 GP 超 参 数 ; 把 这 个 依赖 表示 为 a( 2{2 zj.9) 。 


在 高 斯 过 程 之 前 ， 这 些 函数 完全 依赖 于 模型 的 预测 均值 函数 


po 9) 和 预测 方差 函数 c( 4{2osz},9) 。 在 这 个 过 程 中 


将 pev =argmin4, 了 (加) 表示 为 最 佳 当 前 值 。 
2.3.1 常用 的 采集 函数 
a)GP upper confidence bound(GP-UCB)。 通 过 寻找 最 大 化 GP 


的 置信 区 间 的 点 来 完成 的 外 : 


4= oem] (repeda (12) 
其 中 A(4) 和 (4) 由 Sherman-Morrison-Woodbury 公式 中 评估 。 


参数 8 使 在 样本 空间 的 开发 和 探索 保持 平衡 。 式 (12) 使 用 
BOBYQA(bound optimization by quadratic approximation) 进 行 优 
化 0 

b)Expected improvement。 可 以 选择 在 当前 最 好 的 情况 
最 大 化 期 望 增 量 (EI)。 这 在 高 斯 过 程 下 也 有 闭合 形式 : 
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agr (hus0)=E|max(0,7 (2) -f(t6es))| (13) 
其 中 est 是 目前 为 止 基于 观测 集 的 最 优 解 。 由 于 其 简单 的 形式 ， 


EI 使 用 标准 的 black-box 优化 算法 进行 优化 中。 
在 本 文中 , 本 文 重点 讨论 HH 标准 和 本 文 提出 的 改进 后 的 汤 
普 森 采集 函数 (Improved Thompson Sampling, ITS)， 因 为 GP-EI 
已 被 证 明 比 GP-UCB 有 更 好 的 表现 办， 并且 GP-EI 不 像 GP- 
UCB， 它 不 需要 自己 调整 参数 。 在 实验 部 分 ， 本 文 直接 比较 了 
GP-EI、GP-ITS 以 及 GP-UCB 的 性 能 。 

2.3.2 基于 汤普森 采样 改进 的 采集 函数 

上 面 两 种 采集 函数 那样 的 探索 性 方法 ， 在 某 些 导致 过 度 开 
发 的 情景 下 ， 这 种 对 新 观测 点 的 采集 往往 是 贪 栖 的 9。 虽然 这 
种 采集 的 特殊 问题 可 以 用 类 似 GLASSES 算法 [9 的 方式 解决 但 
这 些 都 是 难处 理 的 。 在 本 节 中 提出 一 种 计算 快速 并 且 可 以 明确 
平衡 勘探 和 开采 的 替代 采集 函数 ， 是 在 汤普森 抽样 上 ] 
(Thompson sampling) 基 础 上 进行 改进 的 一 种 方法 。 对 于 任何 新 
提出 的 duel[L4.2] ， 两 个 可 能 的 结果 {0 汪 对 应 于 4 或 放 赢 得 了 
竞争 (dueD)03， 两 个 结果 的 概率 由 FF 给 出 。 它 遵循 两 步 决策 的 
竞 


a) 选 择 4 : 首先 ， 使 用 一 个 连续 的 汤普森 采样 023 从 模型 生 
成 一 个 样本 ,并 通过 对 人 进行 积分 来 计算 关联 的 soft-Copland 
分 数 。 新 duel 的 第 一 个 元 素 hnest 选择 为 


Wen = re ma | 二 ([42]:76)ax (14) 


在 Copeland score 中 的 Vol(A)! 项 在 这 里 已 经 减 小 了 , 因为 


它 不 改变 最 优 位 置 。 这 一 步骤 的 目标 是 选择 孔 多 塞 胜 者 
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2.4 改进 的 贝 叶 斯 优化 算法 的 实现 

本 文中 使 用 拉丁 超 立 方 体 抽样 (Latin hypercube sampling， 
LHS) 方法 初始 化 观测 集 。 经 过 改进 的 算法 实现 如 下 : 

算法 1: 基于 改进 的 贝 叶 斯 算法 的 CNN 超 参 数 优 化 算法 (GP ITS IMCMC) 


Input: XT7 and Xy , some training and validation datasets, 
N the number of initial points , A the CNN algorithm, and 
L the loss function 


Output: Return the best model of CNN 


N 
1: 10 csh) | by LHS 
小 


2: for tel,...,T do 
3: f (4) GP(H 1) and learn Af1(4) 1/Fit Gp 


4: Compute the acquisition for duels C . 


5: Next duel: [4,4]=agmaxa([4,4] 
5: ma A([4,2],X7) //Train model 
6: 1 cL(ma,Xy) //Compute validation loss 


7: Hn 二 UL2 的] 局 //Update observations 


8: end for 


9: return argminme7s, L(m, Xv ) 


3 ”实证 分 析 


在 本 节 中 ， 通 过 实证 分 析 了 本 文 提出 的 算法 ， 并 对 现在 党 


(Condorce Winner) 时 平衡 勘探 (exploration) 和 开发 (exploitation)， 
这 与 汤普森 抽样 的 做 法 是 一 样 的 : 它 可 能 选择 一 个 接近 当前 
Condorcet 获胜 者 的 点 , 但 是 该 原则 也 允许 探索 其 他 地 点 , 将 决 
策 建立 在 一 个 随机 样本 上。 而 且 ， 收 集 的 评估 值 越 多 ， 对 
Condorce Winner 的 选择 就 越 贪 禁 。 

b) 选 择 4 :在 给 定 hest 基础 上 ， 这 个 duel 的 第 二 个 元 素 被 
选 为 在 tnest 的 方向 上 使 c( 忆 ) 的 方差 最 大 化 的 位 置 。 具体 地 说 ， 
hnest 被 选择 为 


Nest =arg max Vo( 记 各 | 102nesr (15) 


这 一 步骤 纯粹 是 在 hew 的 方向 上 进行 探索 ， 其 目标 是 找到 
言 息 丰 富 的 比较 , 以 便 在 前 面 步 又 中 确定 的 当前 好 位 置 上 运行 。 
总 之 ,改进 后 的 汤普森 取样 法 选择 下 一 个 duel 为 


| 


arg ed CQ1T8 (4 4 力 ) 可 [hnests Mest (16) 


其 中 : hest 和 hest 是 在 上 面 定义 的 。 该 策略 结合 了 一 个 点 的 选 
取 和 一 个 点 的 高 概率 ， 以 及 一 个 点 的 竞争 结果 相对 于 前 一 个 点 
来 说 是 不 确定 的 。 由 于 该 采集 函数 可 以 平衡 exploration 和 
exploitation， 因 此 在 超 参 数 寻 优 过 程 中 基本 不 会 陷入 局 部 极 值 。 


村 


用 的 超 参数 优化 进行 比较 ,本 文 进行 比较 的 算法 主要 有 Bergstra 
等 人 提出 的 TPE 算法 和 Jasper Snoek 等 人 提出 的 GP EI MCMC 
算法 。 首 先 使 用 Branin-Hoo 函数 简单 测试 本 文 算法 的 性 能 ; 然 
后 使 用 CIFAR-10、MRBI(rotated MNIST with background images) 
和 SVHN (Street View House Numbers Dataset ) 数据 集 测试 本 
文 算法 对 CNN 超 参 数 的 优化 性 能 ， 并 与 同类 优化 算法 比较 得 
出 结论 。 
3.1 实验 环境 

众所周知 ， 神 经 网 络 和 深度 学 习 方法 需要 仔细 调整 大 量 超 
参数 。 多 层 卷 积 神经 网 络 就 是 这 样 一 个 模型 的 一 个 例子 ， 如 
Saxe 等 人 所 证 明 的 那样 ， 对 体系 结构 和 超 参 数 进行 彻底 的 探索 
是 非常 有 益 、 有 必要 的 。 本 文 研究 了 一 个 与 Snoek 和 Domhan 
使 用 的 cuda-convnet 相同 架构 的 卷 积 神经 网 络 09。Snoek 和 
Domhan 使 用 的 超 参数 的 搜索 空间 不 同 , 本 文 使 用 类 似 于 Snoek 
等 人 的 搜索 空间 。 其 中 6 个 超 参数 用 于 随机 梯度 下 降 ， 两 个 超 
参数 用 于 响应 归 一 化 层 (response normalization layers)， 搜 索 空 
间 如 表 1 所 示 。Snoek 等 人 的 两 个 超 参数 被 排除 在 本 文 的 实验 
之 外 : 由 于 Caffe 框架 的 限制 ， 响 应 归 一 化 层 的 宽度 被 排除 ; 
于 与 动态 资源 分 配 不 相 容 ， 所 以 epochs 数目 被 排除 。 
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表 1 三 层 卷 积 神经 网 络 的 超 参 数 及 其 范 目 


Hyper-parameter Scale Min Max 


Learning Parameters 


Initial Learning Rate log 5*103 5 
Convl 1 Penalty log 5*103 5 
Conv2 12 Penalty log 5*103 5 
Conv3 1 Penalty log 5*103 5 

FC4 /» Penalty log 5*103 5 

Learning Rate Reductions integer 0 3 
Local Response Normalization 

Scale log 5x1076 5 

Power linear 1*1072 3 


3.2 ”实验 结果 
3.2.1 Branin-Hoo 函数 
利用 Branin-Hoo 函数 测试 比较 MML(maximum marginal 

likelihood, MML) 方 法 和 改进 后 的 IMCMC(improved MCMC) 方 
法 训练 GP 的 性 能 ， 同 时 比较 标准 的 方法 和 TPE 方法 的 性 

〈 按 函数 计算 的 次 数 表 述 )， 如 图 1 所 示 。Branin-Hoo 函数 定 
义 在 0<w%<15,0<%%<15,xe 民 上 , 是 贝 叶 斯 优化 技术 的 共同 标准 
[6]。 在 Branin-Hoo 中 ，GP-EI 和 GP-ITS 明显 优 于 TPE 和 GP- 
UCB，IMCMC 方法 优 于 MML。 
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图 1 在 Branin-Hoo 函数 上 比较 GP ITS IMCMC 和 一 些 标准 方法 


3.2.2 Alex Krizhevsky’s CNN 框架 

本 文 使 用 三 个 图 像 分 类 数据 集 : CIFAR-10、MRBI (The 
MNIST Rotated Background Images Dataset) 和 SVHN (The Street 
View House Numbers Dataset )。CIFAR-10 和 SVHN 包含 32x32 
的 RGB 图 像 ， 而 MRBI 包含 28x28 的 灰 度 图 像 。 每 个 数据 得 
分 为 训练 、 验 证 和 测试 集 : CIFAR-10 有 40000, 10000 和 10000 
个 实例 ， SVHN 分 别 有 600000，6000，26000; ”MRBI 分 别 
有 10000，2000，50000 个 样本 用 于 训练 、 验 证 和 测试 。 对 所 有 
数据 集 进 行 图 像 归 一 化 和 均值 削减 预 处 理 。 本 文 为 CIFAR-10 和 
MRBI 设置 max_iter 为 300 (对 于 CIFAR， 这 对 应 于 训练 集 上 
的 75 个 epochs)， 而 对 于 SVHN， 由 于 其 较 大 的 训练 集 ， 最 大 
迭代 max iter 被 设置 为 600。 在 以 下 的 所 有 图 表 中 ， 该 算法 使 
] Validation Error 进行 最 优 超 参数 的 选取 ， 使 用 
估 最 优 超 参数 的 性 能 。 


nt 


TI 


Test Error 评 


宙 


Chin 
邓 ”是 ; 基于 改进 贝 叶 斯 优化 算法 的 CNN 超 参数 优化 方法 


CIFAR-10 Test Error 
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(a)CIFAR-10 测试 误差 结果 


MRBI Test Error 
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(c)SVHN 测试 误差 结果 图 
2 ”比较 不 同 超 参数 优化 算法 在 CIFAR-10、MRBI 和 SVHN 数据 身 
上 的 平均 测试 误差 


pa 


a 


Kl 


本 文 使 用 GP ITS IMCMC 对 CIFAR-10、MRBI 和 SVHN 
测试 集 上 的 CNN 的 8 个 超 参数 进行 了 优化 ， 并 在 随机 初始 化 
运行 中 报告 平均 测试 误差 (Average Test error). 并 与 使 用 TPE、 

GP EI MCMC 方法 以 及 人 类 专家 00 (Human Experb) 赁 经 验 获 得 
的 最 佳 参 数 获得 的 平均 结果 进行 对 比 。 结 果 显 示 在 图 2 中 ， 从 
图 (a) (b) 中 可 以 看 出 : 在 CIFAR-10 测试 集 和 MRBI 测试 集 
中 ，TPE 性 能 优 于 GP EI MCMC 和 Human Expert，GP ITS 
IMCMC 性 能 优 于 TPE; 从 图 (c) 中 可 以 看 出 : 在 SVHN 测试 
集中 ，GP EI MCMC 性 能 优 于 TPE 和 Human Expert，GP ITS 
MCMC 性 能 优 于 GPEIMCMC。 从 总 体 上 看 ，GPITS IMCMC 
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找到 的 最 佳 参 数 比 TPE 方法 和 GP EI MCMC 方法 找到 的 超 参 
数 平均 性 能 高 出 了 1% 以 上 ， 比 Human Expert 找到 的 超 参 数 习 
均 性 能 高 出 了 3% 以 上 。 
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本 文 提出 了 一 种 基于 改进 的 贝 叶 斯 优化 算法 的 卷 积 神经 网 
络 超 参数 优化 算法 。 该 方法 利用 高 斯 过 程 回 归 对 超 参 数 进行 建 
模 ， 把 一 种 以 改进 的 汤普森 采样 方法 作为 采集 函数 ， 并 且 使 
改进 的 马尔 可 夫 链 蒙特 卡 洛 算法 (IMCMC) 对 GP 超 参 数 求解 过 
程 进行 加 速 。 该 方法 适用 于 各 种 不 同 卷 积 神经 网 络 的 超 参数 优 
化 。 实 验 结果 表明 该 方法 可 以 比 目 前 其 他 常见 的 优化 算法 表现 
出 更 好 的 性 能 。 下 一 步 工作 的 重点 在 于 将 GPITSIMCMC 方法 
进行 并 行 化 来 提高 卷 积 神经 网 络 超 参数 优化 算法 的 收敛 速度 。 
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